查看原文
其他

开源 LLaMA:扎克伯格设想的 AI 活在社交网络里

关注AI炼金术 AI炼金术 2023-07-10


MODEL



上个礼拜,知名的 AI 届 Youtube 主播 Lex Fridman 采访了 Meta 的创始人,扎克伯格。


🔗 https://steno.ai/lex-fridman-podcast-10/383-mark-zuckerberg-future-of-ai-at-meta-facebook如果想要节约时间,可以直接用个翻译插件直接看已经转录好的访谈脚本

在 AI 这个领域,Meta 原本也是最一线的公司,不过,过去几年里他们家的重点都在 VR 上。没想到折腾了这么些年,转头一看大家都去搞 AI 了。连 Oculus 的 CTO,游戏界大神约翰卡马克都转头去搞 AI 了。

而自家“元宇宙”的确一直没有真正成长起来,算得上大卖的 Oculus Quest2 的用户量,其实也就几百万,相信其中也有不少是我这样的“年度活跃用户”。每年到了过年的时候拿出来软件升个级,全家人玩两把“节奏光剑”然后继续放回去吃灰。


人人都爱 Meta 开源的“羊驼”

不过尽管如此,Meta 还是技术实力雄厚。

就在这一轮AI热潮里,短短的半年时间,就陆续扔出了LLaMA, Dino-V2, SegmentAnything, MMS, VoiceBox 一大堆新论文和新模型,涵盖了从文本、视觉到语音的所有领域。
其中的绝大部分还都是开源的,而且像 LLaMA 这样的模型,最早就被 Meta 放了出来,但是即使好几个月过去了,仍然是目前最好的开源大语言模型,智能强于后面开源的一众大语言模型。

也不知道为啥,现在大语言模型和羊驼算是彻底杠上了


为什么 Meta 要开源 LLaMA?LLaMA 这样的模型给 Meta 带来了什么好处?这也是周围很多朋友问我的。
不过在这个访谈里,扎克伯格本人直接给了一个明确的回答:

开源 LLaMA,是因为本身 LLaMA 的模型规模(65B)比起 OpenAI 的 GPT(175B)和 Google 的 PaLM(540B)要小一个数量级。

从技术层面上来说,这样的模型比较“安全”,而且即使出了点纰漏,还有大哥们的大模型在前面顶着。

另外一方面,虽然扎克伯格没说,我猜想对于 Meta 来说,一个并不是当今最好的模型,藏着敝帚自珍也没啥意义。毕竟从访谈里来看,LLaMA 的V2版本应该已经在研究之中了。

而 LLaMA 的开源,本身还给 Meta 带来了很多好处。

作为目前效果最好的开源 Foundation Model,过去几个月出现了大量基于 LLaMA 的研究和扩展工作。而这些其实也给 Meta 内部对于V2的 Foundation Model 的研发带来了大量的创意和反馈。

即使是 Meta 这样的巨头,内部的基础模型的研发力量,比起整个社区还是九牛一毛的。而且社区因为资源的限制,本身会给出很多资源受限下的解决方案。

在 LLaMA 上我们也看到了这一点,从 llama.cpp 这样尝试直接写 C++ 代码来优化模型在 CPU 以及各种个人 PC 设备上性能表现的项目,到 Lora,QLora 这样通过更少资源对模型进行微调的项目,相信都是 LLaMA 开源的时候没有想到的。

即使是 OpenAI,从目前 Fine-tune 接口的费用来猜测,他们最早应该也没有想到使用 Lora 这样的方式来提供微调的个性化版本模型给到自己的企业客户。开源并领先,使得 LLaMA 后续无论是转商用,还是进一步的模型研发都获得了一个先手。


Meta 想让 AI 活到 Facebook 里?

毕竟,对于 Meta 这样的巨头,大语言模型或者 AGI ,是必须要做的。

而且Meta还掌握着和微信一样的用 IM 入口,这个入口也是天然地适合嵌入一个通过对话形式提供“个人助理”能力的应用。



不过,在这个访谈里看起来,扎克伯格在产品层面嵌入 AI 的思考,并不在意通过 IM 这样的入口,内置一个“超级AI”。而是想要把 AI 的能力,赋予更多的KOL、品牌,让整个产品里有很多个不同的“个人助手”,更像是 Character AI 这样的人格化虚拟 KOL,而不是 ChatGPT 这样的超级智能。

🔗 https://beta.character.ai/



这个视角,自然也和 Meta 旗下的 Facebook 和 Instagram 这样的社交网络产品有关系。毕竟,我们上 Facebook 和 Instagram ,不是要寻求一个问题的终极解答,而是想要寻求情感上的抚慰和寄托。所以,前一阵小火过一阵的 AI 鬼城 Chirper.ai 也许不是一个无聊的 Meme,而会是对于未来社交网络变化的一次畅想。

🔗 https://chirper.ai/zh

不过,看不同的公司对于AI聊天机器人的设想,其实也都是现有业务的延续。Google 的搜索引擎业务,决定了它的大语言模型,必然要走一个万事皆知的路线。

Meta 的社交网络,决定了他需要的是一个能够为所有人构建属于自己的“AI替身”的路线。那么像 Amazon,Amazon 似乎不需要通用智能的聊天机器人,如果有的话,相信会是一个 AI 导购机器人。如果映射回到国内的各家巨头来看,其实也不难猜想大家想要做的 AGI 一定也是先会匹配自己的核心业务的。



大模型有没有更好的社区协作机制?


当然,整个访谈里也还是有很多老生常谈的“安全”,“团队”,“Quest 3比起Vision Pro便宜,所以会有更多的普通用户使用”的内容。

不过在目前极其热情的 AGI 研发之外,扎克伯格还提了一个独特的,我在其他地方没有看到过的观点,就是:对于大模型,社区应该如何协作?



其实现有的开源机制上,对于大模型研发来进行协作已经越来越困难了。因为要完成整个大模型训练的端到端的过程,一是需要算力,二是需要数据。而这两个不是我一个人拿一台笔记本电脑写两行代码就能解决的。

LLaMA 65B 模型一次训练的成本,大约就在100万美元。要注意,这个不是说整个研发过程,而是说,你把整个的训练数据集扔给他,跑一遍完整的训练迭代的时间。也就是所有研发过程的坑都踩完了,最后一次制造成品的成本,整个过程需要2048块A100显卡的算力。

现有的开源机制,协作主要还是局限在代码层面。但是在大模型领域,仅仅是代码层面的“共创”局限性还是比较强的。因为不同的开发者时间,即使是微调模型,都还是各自使用自己独立的数据,并且每个人都要自己单独花费算力成本。

但是即使这样,两个不同开发者微调的模型,也不能简单地合并在一起。两边的数据,也并不能简单地混合。这也使得现在开源社区的主要精力,其实不是在训练一个基础大模型,而是在各种微调小模型。

扎克伯格举了 Wikipedia 的例子,维基百科的协作其实不是一个代码层面的协作。而是更像一个数据层面的协作。如果这一层的协作,还能够变成一个算力上的协作。比如,大家讨论的结论,是将特定的数据集合并到一起,定期用算力训练一个社区共享共用的大模型,相信有机会把大语言模型开源的进展推动得更快。

如果谁能设计出一个合理的机制,并且找到足够的协作者和赞助人来提供算力,相信又会是一个巨大的改变。


推荐 Lex Fridman 系列访谈

最后的最后,推荐一下 Lex Fridman 的各种系列访谈,第一手的信息,各种大神出没。非常适合想要调节一下心情的时候去看一看。


🔗 https://www.youtube.com/@lexfridman/videos




直播预约







您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存